Lecture Séquentielle de Documents pour la Classification
نویسندگان
چکیده
RÉSUMÉ. Nous proposons un nouveau modèle de lecture séquentielle permettant la classification automatique de documents textuels. Il est basé sur la modélisation d’un agent qui lit un document phrases après phrases et qui peut à tout moment décider d’associer un document à une ou plusieurs catégories données. L’algorithme proposé se base sur une formalisation de la classification de texte en tant que Processus de Décision Markovien, et un apprentissage du modèle par des techniques de renforcement. Des experiences effectuées sur quatre corpus classiques du domaine montrent que l’approche proposée atteint des performances équivalentes à un SVM tout en lisant (en moyenne) que quelques phrases de chaque document.
منابع مشابه
Description lexicale des signes
RÉSUMÉ. Cet article a pour objet la représentation formelle des lexiques des langues des signes. Les représentations existantes, basées sur la description systématique de paramètres, nous semblent trop rigides. Nous proposons un modèle flexible basé sur une approche géométrique et séquentielle. Nous discutons ensuite de sa représentation sous forme de graphes, permettant une mise en évidence cl...
متن کاملConditions générales pour l'admissibilité de la programmation dynamique dans la décision séquentielle possibiliste
RÉSUMÉ. Nous nous intéressons à la contrepartie possibiliste des processus de décision markoviens. À l’instar du modèle classique, trois relations de préférence peuvent être distinguées (préférences sur les chemins, sur les loteries et sur les politiques). Nous énonçons des propriétés simples et suffisantes (transitivité, invariance par translation, indépendance) sur la relation de préférence s...
متن کاملÉléments pour adapter les systèmes de recherche d'information aux dyslexiques
RÉSUMÉ. La prise en compte des troubles de la communication dans l’utilisation des systèmes de recherche d’information tels qu’on peut en trouver sur le Web est généralement réalisée par des interfaces utilisant des modalités n’impliquant pas la lecture et l’écriture. Peu d’applications existent pour aider l’utilisateur en difficulté dans la modalité textuelle. Nous proposons la prise en compte...
متن کاملClassification Automatique Non supervisée de Documents Textuels basés sur Wordnet
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کامل